[D3] Unsupervised Keyphrase Extraction with Multipartite Graphs (Florian Boudin, 2018)

12th鐵人賽關鍵字分析關鍵字提取自然語言處理

victor.huang

2020-09-17 22:55:15

1287 瀏覽

分享至

TL;DR

本文延續 TopicRank 的思想，使用 HAC 先將候選詞分群，希望最後的結果能涵蓋到較多主題。詞圖的構成為：以候選詞為節點；除了同主題下的節點，其他所有節點互相連接，構成多分圖；邊的權重則是兩候選詞之位置差倒數之總和。並有額外的提拔機制，提升特定詞的分數。本文模型在三個資料集中都表現優於舊有方法。

Paper Link

NAACL 2018
Unsupervised Keyphrase Extraction with Multipartite Graphs
https://www.aclweb.org/anthology/N18-2105/

Key Points

TopicRank 優點在於可以涵括各種主題，但也有其缺點：
1. 在同一個主題中，每個候選詞的機會都是相同的。（這句不確定是什麼意思，因為前文有三種策略給後選詞不同的機會）
2. 分群的錯誤會傳遞到後面的步驟，影響到最後排序的結果。
本文延續 TopicRank 的思想，事先將候選詞分群，盡量選擇不同的主題涵括文章所有概念。
抽候選詞的方法一樣是 /Adj*Noun+/，分群的方法一樣是 HAC。
此文使用候選詞（而非主題）作為節點，使用 Multipartite graph（多分圖）（而非全聯接圖）來構成詞圖，是與 TopicRank 最不相同的地方。其概念為，文章中所有的候選詞都互相連接，除了同個主題下的候選詞們。故若有 K 個主題，除了群內的節點，其他的節點都互相連接，構成 K-partite graph。
任一邊的權重，是該邊兩端候選詞的位置差的總和。下面的公式中，ci cj 是兩個候選詞，P(c) 指的是候選詞 c 的位置集合。

作者稱這個模型優點有二：
1. 他們將主題內的邊移除，避免同一主題內的節點們互相灌票，一起入選，故能間接地涵括更多主題。
2. 因為他們對同一主題下不同的後選詞分別對待，所以能夠脫穎而出的候選詞，應該會是能夠代表這個主題的詞。（為什麼？）
本文的關鍵：用改變邊權重，提拔有希望的候選詞。
1. 此文說遇到一些特殊的情況可以做提拔，比方說某詞命中我們自己準備的字典。
2. 但在這篇文章中，是提拔每個主題中第一個出現的後選詞。
3. 提拔的方式，是把同主題的出邊的權重，乘上一個被提拔詞的位置函數，加到被提拔詞的入邊的權重上。
接下來就可以跑 PageRank 了。
本文實驗在三個資料集上面，分別是 SemEval-2010、Hulth 2003、Marujo-2012。在所有資料集上表現良好。另外也有做移除提拔機制的版本，可以看到如果只是改成 Multipartite graph ，效果僅有略微提升。
討論：
1. 有些標準答案裡面同時包含上位詞與下位詞（hypernym-hyponym），例如 Model 和 Topic Model，這導致此模型表現不好。（這就是昨天 TopicRank 提到的可能的錯誤傳遞的部分，但也只能說是必然的事情（所以深度學習的 End to End 才會這麼討喜呀）。）
2. 在 92% 的情況下，抽出來的前十個關鍵詞，都分屬於不同的主題。

Thoughts

這個方法比起 TopicRank 放寬了在一個主題內各個節點和主題外的節點的互動方式。似乎還蠻有道理的，詞與詞的距離差概念是清楚的，但主題與主題揉合了所有內涵詞的距離差，壓縮了這些數字表達的力道。
但此篇文章的概念還是有點微妙，移除了主題內的邊為了禁止主題內互相灌票，但又為了要提升主題內的有希望的候選詞，利用了主題內其他候選詞。從直接灌票變成間接灌票。(斧鑿（咳）)
不過，實驗可以看到，提拔制度是效能提升的關鍵，所以說雖然也是在灌票，但是做法變得細緻？
討論的部分提及的主題涵蓋率廣，是否代表了提拔制度非常有力地提升了每個有希望的後選詞的機會？那這樣與 TopicRank 在選完主題後，再選該主題內的有希望的候選詞概念，不是一樣的嗎？
- 有差別的地方可能在於，這樣的詞圖可以找出比較重要的主題？
- 所以應該可以比較 TopicRank 和本文找出來的關鍵詞覆蓋的主題是否相同？如不相同，那是什麼樣的主題比較容易被偏好呢？